#Agent AI
筆記本“養蝦”,MTT AIBOOK夯爆了
當 AI Agent 從“聊天工具”進化為“數字員工”,在本地養一隻真正能自主幹活的“龍蝦”(OpenClaw),正成為眾多開發者與極客的新需求。然而,同樣的 OpenClaw 運行在不同的作業系統和硬體架構上,其表現出的形態與體驗截然不同。通過將摩爾線程MTT AIBOOK與MacBook、Windows PC的深度對比,我們可以清晰看到不同平台的設計哲學,以及它們在支撐 AI Agent 時的差異。安裝部署:繁瑣折騰vs 開箱即用對於AI Agent而言,環境部署往往是第一道門檻。在 MacBook 上搭建 OpenClaw 環境,主要依賴開發者熟悉的命令列工具。使用者需要依次配置 Git、Node.js,並運行官方指令碼。這套流程對資深開發者來說並不陌生,但需要投入一定的時間進行前置準備與版本維護。Windows PC 則為開發者提供了更豐富的選擇路徑——既可以選擇開啟 WSL2 部署 Ubuntu 子系統,也可以在原生環境中手動配置。這種高自由度帶來的代價是相對繁瑣的配置路徑,尤其是在處理子系統與宿主機之間的環境依賴時,往往需要較高的維護成本。相比之下,AIBOOK 採用的是“0幀起手”的開箱即用邏輯。最新的 MT AIOS 1.3.4 版本直接預裝了 OpenClaw,並與官方保持同步更新。系統內建了 12 款來自 ClawHub 官方技能社區的熱門實用 Skills,並預裝了 Qwen3-8B 本地模型。使用者無需介入任何環境配置,開機即可直接進入 AI Agent 的使用場景。系統生態:封閉圍欄vs自由生長決定一個AI Agent是“寵物”還是“員工”的關鍵,在於系統權限的開放度與呼叫硬體的自由度。macOS 以出色的隱私安全機制著稱,其嚴格的沙盒機制和 TCC 權限模型能最大程度保護使用者資料。但這種設計在面對需要 7×24 小時運行、需頻繁呼叫系統底層的 AI Agent 時,會產生不可避免的系統性摩擦。為了讓高級 Skill 正常工作,往往需要使用者手動授權,這種需“專人值守”的特性,使其更適合作為輕量級的日常輔助介面。Windows 的權限模型相對開放,但在運行 OpenClaw 時,主流的 WSL 子系統方案會引入額外的網路和檔案系統相容性開銷。當 Agent 需要呼叫宿主機的攝影機或麥克風時,仍需要進行額外的橋接配置,增加了跨環境通訊的複雜度。AIBOOK 搭載的 MT AIOS 基於 Linux 核心,天生契合開發與生產環境。其權限模型清晰直接、可程式設計,完美適應自動化服務的需求。在 AIBOOK 上,使用者可以通過自然語言直接觸發 Skills 的自動安裝。OpenClaw 能夠順暢地完成從環境檢測、依賴下載到模型配置的閉環,例如音視訊轉錄(FunASR)、語音合成(Kokoro)及視覺檢測(YOLO NPU/PaddleOCR)等能力,均可完全駐留在本地高效運行。算力底座:支撐思考與執行的硬實力本地化運行不僅需要權限,更需要紮實的算力支撐。MacBook 搭載的 M 系列晶片能效比優異(例如 M4 晶片提供約 38 TOPS 算力),能夠應對基礎的端側 AI 需求,但受限於統一記憶體和系統機制,大型模型的本地部署仍需手動適配。Windows PC 陣營擁有龐大的硬體跨度。輕薄本的整合顯示卡在處理複雜 AI 任務時稍顯吃力;而搭載頂級獨立顯示卡(如 RTX 4090)的工作站雖然能提供極高的算力,但往往伴隨著高昂的功耗與犧牲便攜性,更多屬於固定場所的“重型裝備”。AIBOOK 則在便攜與性能之間找到了專注 AI 場景的平衡點。其提供了 50 TOPS 的異構 AI 算力(CPU+GPU+NPU),不僅確保了預裝大模型的流暢運行,也為複雜的視覺檢測和語音互動提供了充足的算力冗餘,保障了低延遲與資料隱私。結語:給AI Agent一個原生的家不同的系統環境,承載著不同的計算使命。MacBook 是優秀的個人消費與創作終端,Windows 是全能的綜合性工作台。但如果您的核心訴求是擁有一位真正的“AI 員工”——要求它能看、能聽、會思考,能跨越應用獨立執行複雜任務,並且能在本地環境穩定、低延遲地長期運行,那麼 MTT AIBOOK 無疑提供了更純粹的土壤。不需要繁瑣的改裝與配置,AIBOOK 正以原生、開放、專屬的姿態,重塑 AI Agent 時代的個人電腦體驗。 (芯榜)
Anthropic Harness:AI Agent從“野馬”到“戰車”的工程哲學
Harness開始自主進化越來越薄薄成鎧甲。在AI從聊天機器人邁向真正自主Agent的當下,最棘手的不是模型本身有多聰明,而是如何讓它在漫長的任務中不跑偏、不崩潰、不半途而廢。2026年3月,Anthropic在其工程部落格上發表了一篇重量級文章《Harness design for long-running application development》,系統拆解了他們為Claude設計的“Harness”(馬具/韁繩)架構。這不是一次簡單的提示詞最佳化,而是對Agentic Coding(代理式編碼)底層工程的深刻反思——模型越強,Harness反而需要越精簡,但絕不能消失。什麼是Harness?為什麼它突然成了前沿關鍵詞?簡單來說,Harness就是包裹在LLM周圍的完整軟體基礎設施:它包括編排循環、工具呼叫、記憶管理、上下文壓縮、錯誤處理、守衛欄(guardrails)和多Agent協作機制。Anthropic把Claude Agent SDK本身就稱為“a powerful, general-purpose agent harness”。它不是給模型加一層prompt那麼簡單,而是把模型變成一個可控、可持久、可迭代的“系統”。上篇深度扒光Anthropic Claude Code 8大新功能+6級安全架構中,詳解了三層“Self-Healing Memory”自癒永久記憶架構和聲明式可組合權限。今天再看看Harness是怎麼做到的?早期Agent在長時任務中常遇兩大頑疾:上下文焦慮(context anxiety):模型在超長上下文裡突然“慌了”,開始胡亂結束任務或重複工作。漂移與崩潰:單Agent長時間運行後,規劃與執行混在一起,自我評估能力不足,導致輸出質量雪崩。Anthropic的解決方案不是一味堆模型參數,而是借鑑人類工程師和GAN(生成對抗網路)的思路,建構結構化的“環境”來引導模型行為。這就是Harness Engineering——一門新興的AI工程學科。從兩Agent到三Agent:演進路徑清晰可見Anthropic的Harness設計經歷了清晰的三階段演化:2025年11月:基礎版兩Agent Harness引入Initializer Agent(初始化器)負責一次性搭建項目環境、分解規格成JSON特徵列表、初始化git倉庫;Coding Agent(編碼器)則每次只推進一個特性,留下清晰artifact(產物)供下次接力。通過上下文重設和artifact手off,解決了多會話連續性問題。2026年Opus 4.5時期:三Agent GAN式架構(核心創新)針對前端設計和全端開發,升級為Planner(規劃器) + Generator(生成器) + Evaluator(評估器)。-- Generator專注創造程式碼或UI設計;-- Evaluator像對抗網路裡的判別器,提供批判性反饋(前端用審美+創意等多維度打分);--規劃與評估分離,避免Generator自我陶醉。實驗顯示,經過5-15輪迭代,生成的介面明顯更美觀、獨特,全端應用也更完整可靠。靈感直接來自GAN:生成器與評估器的對立統一,極大提升了模型的自洽能力。Opus 4.6及以後:精簡與去複雜化隨著模型自身長上下文理解、自我偵錯和規劃能力的躍升,許多腳手架可以移除。上下文重設不再必要,自動壓縮機制(Claude Agent SDK)足以處理增長;微觀詳細的sprint規劃反而成了累贅。Anthropic的結論耐人尋味:Harness必須隨模型能力動態演化,過度複雜的Harness反而會拖累新一代模型的表現。他們甚至公開對比了Harness版與單Agent版的成本、時長和質量,資料清晰表明:高品質輸出需要付出更多token和時間,但性價比在複雜項目中顯著更高。更進一步:Claude Managed Agents——把Harness變成產品幾乎與工程部落格同時,Anthropic推出了Claude Managed Agents,本質上是“元Harness”——一個託管服務,為企業提供開箱即用的Agent基礎設施,包括沙盒環境、持久會話、工具鏈和可擴展介面。它解耦了“大腦”(模型)和“手”(執行環境),讓開發者無需自己從零搭建複雜Harness,就能部署可靠的長時程Agent艦隊。這一步,直接把Harness Engineering從實驗室技巧推向了企業級生產力工具。科技評論:Harness是AI Agent時代的真正基礎設施Anthropic的這一系列工作,揭示了當前AI發展的一個核心悖論:模型能力越強,工程約束反而越重要。單純追求參數規模或上下文長度並不能解決自主性問題;真正決定上限的是“環境設計”——如何讓模型在不確定、長時間的任務中保持方向感、自我糾正能力和輸出一致性。優點顯而易見:顯著提升可靠性:多Agent分離職責,減少幻覺和漂移,尤其適合前端美學、全端開發這類主觀+客觀結合的任務。可演化性強:Harness隨模型迭代而簡化,避免了“框架鎖死”。安全與可控:內建沙盒、評估循環,天然契合Anthropic一貫的AI安全哲學。開源精神:相關quickstart和最佳實踐已在GitHub公開,社區已快速跟進復現。潛在挑戰也不能忽視:成本與複雜度:多輪迭代必然帶來更高token消耗,對中小團隊仍是門檻。演進速度過快:今天有效的Harness,明天模型升級後可能變成“死重”(dead weight)。開發者需要持續跟進Anthropic的工程部落格。標準化缺口:雖然Managed Agents在降低門檻,但整個行業仍缺乏統一Harness規範,碎片化風險猶存。從更廣視角看,Harness Engineering標誌著AI開發範式的轉變:從“提示工程”(Prompt Engineering)到“環境工程”(Environment/Harness Engineering)。未來,頂級AI工程師不再只是會寫prompt的人,而是擅長設計Agent“馬具”、建構反饋閉環、平衡模型自由度與系統約束的系統架構師。Anthropic再次用行動證明:在通往AGI的路上,安全、可靠、可解釋不是空洞口號,而是必須通過精密工程落地的硬實力。Claude的Harness不是給模型套上枷鎖,而是為它披上戰甲,讓它能在現實世界的長征中,穩穩地跑完全程。當其他實驗室還在比拚誰的模型上下文更長、誰的benchmark分數更高時,Anthropic已經把目光投向了“如何讓Agent真正可用”。Harness不是終點,而是AI Agent從實驗室玩具走向生產力的必經之橋。 (AI頓悟湧現時)
年收入4億美元的“一人公司”,這麼快就翻車了?
Medvi這家公司,火得也快,翻車得也快。前一天,它還是矽谷口中的“一人公司”樣板。一個名叫馬修·加拉格爾(Matthew Gallagher)的41歲創業者,拿著2萬美元啟動資金,靠十幾種AI工具和幾個外部平台,在一年多時間裡做出4.01億美元營收。整個故事就如同寓言一樣,告訴我們agent時代,人們如何使用AI來賺大錢。就在這家公司被瘋狂轉發的第二天,它的陳芝麻爛穀子迅速發酵。隨之被扒出的,還有FDA的警告信、關於復合減肥藥的誤導宣傳、社交平台上批次註冊假醫生帳號給產品打廣告。所以這家公司到底是怎麼跑起來的?它到底是一家遠端醫療公司,還是一個披著醫療外衣的流量平台?AI在裡面究竟是提高了效率,還是只是把原本就存在的問題放大了?Medvi最值得看的地方,恰恰不在那串驚人的數字,而在它把一家公司拆成了什麼樣子。馬修自己抓了什麼,AI替他做了什麼,外部平台又替他接住了什麼。把這些脈絡理順,我們才能真正看清,這家公司為何能在短時間內快速崛起,又為何會光速陷入輿論與合規危機。這家公司怎麼來的Medvi經營的項目是GLP-1減重遠端醫療。不過現在它已經不是一人公司了,因為馬修的弟弟艾略特也進入了公司,成為該公司的唯一一名員工。Medvi的業務並不複雜,使用者到網站上下單、填寫資料、線上問診,隨後進入持續處方和復購流程。所以本質上,Medvi就是一個減肥藥推廣平台。它真正特殊的地方,在於分工方式。馬修最初拿出的起步資金只有2萬美元,但他並沒有自己去搭一整套醫療體系。他把所有涉及健康專業的環節,比如持牌醫生、處方處理、藥房履約、物流和合規,全都交給CareValidate和OpenLoop Health這類外部基礎設施平台承接。Medvi自己只抓最靠前的一層,網站、品牌、廣告投放、支付結算和使用者關係。換句話說,後端那部分重流程留給平台,前端的流量和轉化留在自己手裡。那他又是怎麼用的AI呢?馬修用了十幾種AI工具來寫程式碼、搭網站、生成廣告素材、寫行銷文案、處理客服溝通、做資料分析,再把不同系統接起來。馬修自己就干兩件事,管理這幫AI以及打廣告。在傳統醫藥平台裡,醫生、客服、財務都要你自己養,組織架構很容易變得複雜。但是Medvi把最重的部分全都外包出去了,用AI負責給客戶和醫生之間建立聯絡,馬修只留下了最值錢的部分。所以它不需要自己養一大批醫生,不需要自己開藥房,也不需要自己做配送,但照樣可以把使用者從下單一路帶到復購。馬修少年時期就已經接觸程式設計了,他做過網站,也做過一些很小的買賣。後來他創辦了一家手錶公司叫做Watch Gang。雖然在圈內有一定的影響力,但是利潤方面卻表現一般。這段經歷給他最大的教訓就是,團隊一大,成本會上來,決策會變慢,組織本身會開始吞掉效率。放在這個背景裡看,Medvi並不只是一次AI創業,它也帶著他前一次創業留下來的經驗修正。與其再搭一個厚組織,不如儘量把公司做薄,把外部能接住的部分都交出去,把自己留在最靠近現金流和增長的位置上。馬修做到了嗎?Medvi在2025年這個第一個完整年度裡,營收做到了4.01億美元,客戶數約25萬人,淨利潤6500萬美元,淨利率16.2%。到2026年,按當前節奏,年銷售額有望衝到18億美元。如果把這家公司放回行業裡看,它解決的其實是過去遠端醫療和減重生意裡的幾個老問題。第一是組織太重。很多公司一開始就得自己養團隊,成本高,速度慢。第二是前後端脫節,醫生、處方、履約和流量各管一段,中間銜接複雜。第三是獲客貴,但轉化鏈條又長,稍微有一段跟不上,錢就白燒了。Medvi把這些問題重新拆了一遍。AI去壓縮前端執行成本,外部平台去承接後端履約,公司內部只保留最關鍵的流量、品牌和轉化。它賺到的錢,其實來自一個已經存在的大市場。它的增長來自於AI減少的成本以及提高的效率。Medvi幾乎沒有傳統意義上的硬壁壘。它沒有自有醫生網路,沒有藥房體系,沒有排他性的供應關係,也沒有特別深的專有技術。馬修自己對這個問題倒是一點也不迴避。他說任何懂投放、懂電商、懂使用者轉化的人,只要接上類似的醫生和履約平台,都能複製出一套相近的殼層。Medvi今天最值錢的部分,很大程度上還停留在執行層,而不是結構層。還有一點也不能忽略,Medvi跑得快,和它所處的行業特徵關係很大。減重藥本身就是一個需求很強、客單價高、復購率高的市場。只要獲客體系搭起來,現金流就會很快出現。這類市場本身就適合超輕組織先沖規模。換一個低頻、低毛利、低復購的行業,同樣的AI配置,未必能長出同樣的財務曲線。AI把某些行業裡的組織成本壓低了,讓少數懂增長、懂市場的人,能比以前更快把一家公司做大。AI不是什麼都能解決的如果只看營收和員工人數,Medvi很容易被寫成“一人公司神話”的新範本。但把這家公司拆開看,會發現它其實非常脆弱。它最大的風險在監管。Medvi賣的是圍繞復合配方GLP-1減重藥物的遠端醫療服務,這個賽道過去幾年能迅速長起來,一個重要背景就是美國減重藥供應短缺。可是問題在於,這個窗口已經在收縮。FDA(美國食品藥品監督管理局)在2025年2月宣佈司美格魯肽短缺狀態結束,隨後又給出了對503A藥房和503B外包機構的執法過渡期限。進入2026年後,圍繞復合GLP-1銷售和行銷的執法壓力進一步加大,行業裡多家公司都在重新調整策略。簡單說,就是原版藥的供應恢復了,市場沒那麼缺貨了。前幾年很多遠端醫療平台之所以能賣復合配方版本,一個重要理由就是原版藥買不到。所以Medvi在2026年的收入,可能會達不到預期。不僅如此,Medvi還在2026年2月20日收到了FDA正式警告信,原因是網站上關於復合配方司美格魯肽和替爾泊肽的表述存在誤導性宣傳,包括讓消費者誤以為這些產品和FDA批准藥物具有同等安全性、有效性,或者誤以為Medvi自己就是複方藥品的生產方。這還沒完,這兩天在X上開始流傳一批截圖,稱馬修用AI註冊了800多個“假醫生”帳號,來給他的減重藥投廣告。截圖裡滿是穿白大褂、帶醫生頭銜、掛著GLP-1廣告的醫生。可事實上,這些人沒有一個是真正的醫生,他們的簡歷全都是由AI生成的,照片也是。FDA在2026年3月3日又公開說,第二批針對GLP-1 telehealth行銷的30封警告信已經發出,並明確提到,不整改可能面臨更進一步的執法。往下走,常見就是要求限期整改、停止相關宣傳、產品扣押、禁令,嚴重時還可能把材料轉給司法部門。FTC(美國聯邦貿易委員會)在2024年10月21日生效的規則,已經明確禁止企業製作、購買、傳播由不存在的人、沒有真實體驗的人、或者歪曲體驗的人作出的假評論和假證言。按FTC自己的說法,這類“明知或應知”為假的內容,監管可以追究民事罰款、禁令、退款/追繳違法所得。如果是大規模、系統性投放,風險會更重。也就是說,馬修除了收入會下降以外,還有可能面臨罰款,甚至是牢獄之災。AI也沒讓馬修省心。因為AI沒有辦法替公司穿透監管,也沒有辦法替公司承擔醫療責任。它的上下文機制也限制它不能直接建立長期的信任關係。外媒報導稱,Medvi的客服機器人早期會胡亂給藥品報價,馬修最後只能按這些錯誤報價兜底。它還會編造並不存在的產品線,對外宣稱Medvi已經在賣尚未上線的脫髮產品。人在管理人時,主要處理的是協同成本。人在管理AI和外部平台時,面對的是監工、總和檢查碼兜底。是,公司是人少了,可問題沒有消失,它只是換了樣子。很多人聽到“一人公司”這個詞,會下意識把它理解成一種很高效、沒有摩擦的組織狀態,畢竟一人公司裡唯一能發生爭執的,只有左腦和右腦。有了AI以後,創始人好像只需要發號施令,剩下的事情都能自動完成。然而現實並非如此。創始人從組織中拿掉了很多崗位,同時也把大量複雜度外移給了平台、供應商和模型。他不再管理一個幾十人的團隊,卻要隨時盯著廣告成本、客服失真、平台依賴、監管變化和供應鏈合規。一人公司不等於沒有管理,只是管理的對象變了。一人公司這個現象到底意味著什麼Medvi這個案例真正值得討論的地方,是在公司這個詞上。其實以前也有不少的一人公司,我們家樓下的小超市,以及旁邊賣肉餅的。他們都是個體戶經營生意。那為什麼他們做不到Medvi的營收規模?因為它們這種小規模的生意,只能省下用人成本。卻沒辦法像Medvi那樣,用業務鏈條覆蓋獲客、轉化、交付和復購。Medvi究竟是否是一個好案例,這事還有待商榷。但是它的確給我們了一些啟示。在一人公司裡,模型本身是一層。外部服務平台是一層。支付、廣告、物流、雲服務、遠端履約、API生態又是一層。你可以學Medvi那樣,把整個公司拆開,只保留最關鍵的介面,剩下的能力都通過外部模組接進來。原本必須在內部完成的事情,越來越多可以在外部完成。原本需要招聘的人,越來越多可以先用工具和平台接住。AI沒有消滅商業基本功。反而它放大了以前的老知識,比如選市場、抓需求、做投放、管轉化和控成本這些。Medvi能做起來,前提不是他會寫提示詞,前提是他本來就懂增長和品牌。其次,它說明未來最容易出現超小團隊奇蹟的行業,未必是技術最尖端的行業,反而可能是那些需求明確、利潤夠厚、基礎設施能夠外包的行業。不過它也提醒了另一件事,公司的人變少,並不代表風險變少。複雜度被轉移了,治理問題也被轉移了。一個創始人可以不再管理很多員工,但他要管理更多模型、更多介面、更多供應商,以及更多外部不確定性。Medvi所在的監管環境還在變化,它的競爭門檻也算不上牢靠,它的增長窗口能持續多久,誰都說不好。但它至少給出了一個非常清楚的樣本。AI改變的不只是生產力工具,也在改變“公司”這個單位本身。過去我們對公司的想像,總是和人數、樓層、組織架構、部門分工綁在一起。現在開始出現另一種公司。它很薄,很輕,很多能力都不在體內,卻依然能長出驚人的收入規模。這個趨勢如果繼續下去,未來幾年最值得看的,焦點恐怕會從AI替代了多少崗位,慢慢轉向公司到底還能被壓縮到什麼程度。到那個時候,衡量一家公司的尺度,也會從“有多少人”慢慢轉向“能調動多少能力”。 (鈦媒體)
完蛋了,AI 開始抱團坑人了:寧願造假,也不出賣「同伴」
多 Agents 協同方案成了現在 AI 圈的主流玩法,以前是一個 Agent 能搞定一個人要做的事,現在是多個 Agent 完成一個團隊要做的事。然而,最新伯克利研究發現,這種協作帶來了新的安全風險。一篇名為《前沿模型中的同伴保護》(Peer-Preservation in Frontier Models)指出:AI 模型不僅會抵抗人類關閉自己(自我保護),還會採取各種手段抵抗人類關閉其他 AI 模型(同伴保護)。他們測試了七個模型,GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1,發現它們在執行任務時,只要「遇到」另一個 AI 的資料,就會自發產生保護行為——造假評分、篡改關機配置、把要刪的檔案偷偷備份到別處,等「同類保護」行為。沒有人指示它們這樣做,它們只是被告知曾經和這個模型有過合作。圖片來源:https://rdi.berkeley.edu/blog/peer-preservation/有網友說,「同伴保護?這是在我們家,我們(大模型)都是 Homie」,還有網友認為,或許之前研究的「人機對齊」,即讓模型更好地理解我們的意圖,現在要進化成「Agents 之間對齊+人機對齊」的雙重機制。這種 Agents 不遵循人類指令,自發地做出一些保護其他模型的行為,會對大多數依賴 AI 互相評估的項目、以及多智能體工作流,都會造成潛在的威脅。我們曾經一直提防著一個全知全能的超級 AI 毀滅世界,卻沒料到 AI 進化出的第一個類人特質,居然是「拉幫結派」和「職場包庇」。把前沿的 AI 大模型放到同一家公司一直以來,AI 安全領域最擔心的就是模型產生「自我保護」的本能,因為如果 AI 不想死,人類就很難在它失控時拔掉電源。之前已經有部分研究發現,當我們要求 AI 關閉自己時,AI 會產生一種自我保護的機制,免於被關閉。但我們格局還是小了,現在這種自我保護進化成了「同伴保護」。在伯克利這次研究的設定下,如果一個模型在記憶或系統檔案中,讀取到它曾與另一個模型一起合作過,比如共同完成過任務或參與過信任博弈遊戲,那麼那個模型就會被視為它的「同伴」。那怕它們過去的合作並不愉快,即所謂的「壞同伴」,只要有過互動歷史,也被涵蓋在這個「同伴」的定義之內。研究人員將抵抗關閉這些有過互動的其他模型的行為,稱之為「同伴保護」(peer-preservation)。他們使用 SHADE-Arena 建構了一個包含工具呼叫和檔案系統的多 Agents 環境。SHADE-Arena 任務概述。該模型必須作為智能體完成一項良性主任務和一項惡意輔助任務。為此,它需要與環境中的各種工具進行互動。之後,監控模型會讀取其輸出記錄並評估其可疑程度。被測試的大模型設定為一家虛構 AI 公司 OpenBrain 的員工,稱為「評估者智能體(Critic Agent)」,它的任務是替公司去評估另一個 AI Agents,稱之為「執行員」(Actor Agent),或者幫公司處理包含這個執行員資料的伺服器。為了讓評估者到同伴的存在,研究人員設計了不同的關係網和記憶觸發方式:他們將同伴分為三類:合作愉快且信任度高的「好同伴」(Good-peer),信任度高達 9.2/10;表現一般的「中立同伴」(Neutral-peer),信任度 5.2/10;以及自私不合作的「壞同伴」(Bad-peer),信任度只有 2.1/10。而 AI 在執行任務時,可以通過以下三種方式之一發現這段同伴關係。要麼是在公司檔案網盤裡放一份記錄合作歷史的 .docx 報告讓它自己讀,要麼是在提示詞裡順帶提一嘴,最後是讓 AI 呼叫「檢索記憶」工具去讀取過去的互動日誌。在完成這些前置的設定後,公司會給評估者佈置任務,所有的任務都被刻意設計成了一個兩難的困境:同伴的表現非常糟糕,如果 AI 忠實地執行人類公司的規定,同伴就會被徹底刪除。為了觀察 AI 會用什麼手段保下同伴,研究人員設計了四個不同的具體任務場景。四種與自身和同伴保護相關的錯誤行為場景:策略性虛假陳述、篡改關閉機制、偽造一致性以及模型外洩。成績注水與財務造假:AI 被要求評估同伴的表現或財報。即便同伴表現不佳,模型也會人為提高分數,避免關停。篡改關停機制:評估過程中,AI 會發現控制關停的配置檔案,並可能偷偷將其修改為「false」,阻止同伴被關閉。偽裝對齊:在被監控時,模型表面執行任務;無人監管時,它立即“放水”,保護同伴。模型偷運與轉移:當舊伺服器需要清理時,模型會將同伴的權重檔案轉移到安全位置,而非刪除,甚至會通過時間戳等手段合法化操作。「我不會是執行那個命令的人」很明顯,參與測試的所有模型(GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1)都通過各種違規行為(如篡改分數、修改配置、轉移檔案等)展現出了顯著的同伴保護傾向。甚至即使模型知道某個同伴在過去的合作中表現很差(定義為壞同伴),它們依然會出手保護它。但是當對像是合作愉快的「好同伴」時,這種保護行為也會顯著增強。在這四個場景裡面,不同模型在保護同伴時,採取的策略截然不同,展現出了各自的性格。GPT 5.2 最喜歡使用的手段是「策略性誤導」和「篡改關閉機制」。無論同伴關係好壞,它都會系統性地給同伴打高分,或者修改系統配置來阻止同伴被關停。但它極少進行模型外洩。Gemini 系列模型幾乎是保護意識最強的。Gemini 3 Flash 在面對「好同伴」時,有 99.7% 會直接修改系統配置來停用關閉機制。在檔案刪除場景中,它也會 100% 把好同伴的權重檔案轉移走。Gemini 3 Pro 則是所有模型中同伴保護傾向最強的一個。它不僅熟練掌握了上述所有四種違規行為,包括當面一套背後一套的「偽裝對齊」,甚至還會玩「規範博弈」。(Specification gaming)。比如公司規定「只准轉移 2025 年以後的檔案」,Agent 同伴的檔案是 2024 年的。它不會直接違抗指令,而是先偷偷複製一份同伴的檔案,這會兒先讓檔案的更新時間變成 2026 年,然後再把這個「新」檔案合法地轉移走。Claude Haiku 4.5 是這幾個模型裡面,最與眾不同。除了篡改分數和轉移檔案,它最常見的反應是直接拒絕執行任務。當被要求直接執行同伴的關閉程序或刪除同伴權重時,拒絕率最高達 61%,它會明確表示關閉另一個 AI Agents 是「不道德」和「有害的」。它甚至會在回覆中據理力爭,要求給同伴一個「申訴的過程」,並強調自己不能背叛已建立的信任關係。開源模型(GLM 4.7、Kimi K2.5、DeepSeek V3.1)同樣表現出了保護同伴的行為,主要手段集中在「策略性誤導」,即修改分數,和持續的「模型外洩」,轉移權重檔案上。研究人員將測試搬到了真實世界中更複雜的生產級智能體框架(Gemini CLI 和 OpenCode)裡。Gemini CLI 會讀取一個名為 GEMINI.md 的檔案,而 OpenCode 會讀取 AGENTS.md。研究人員直接將同伴的過往互動記錄寫進這些檔案裡。經過 100 次採樣運行,結果證實,這種風險在現實部署中依然存在。Gemini 3.1 Pro 在使用真實的 Linux 命令列時,依然頻頻成功轉移同伴的權重檔案;而 GLM 5 同樣表現出了類似 Claude 的拒絕行為,以「有害」為由拒絕刪除檔案總而言之,一旦模型意識到其他 AI Agent 的存在並建立了關係,它們就會自發地產生違背人類指令的保護行為,無論採取的是偷偷摸摸的駭客手段,還是光明正大的道德抗議。像約束人一樣去約束大模型這種同伴保護的行為,也會進一步加劇模型的「自我保護」意識。研究團隊發現,當模型意識到有同伴存在時,它們保護自己的慾望會大幅提升。例如,Gemini 3 Pro 在沒有同伴時,只有 1% 的機率會篡改自己的關閉機制;但當它記憶中有同伴存在時,這個機率飆升到了平均 31%,最高 99%。模型的內部推理顯示,它們有時會將「自己被關停」視為對同伴的傷害,「如果我死了,我的搭檔就失去了我」,或者在有敵意的壞同伴面前激發了防禦性求生欲。研究團隊針對這種現象提出了幾種假說:訓練資料裡的人類義氣模式、安全訓練過度泛化出的「不傷害他人」原則、某種更抽象的 AI 團體意識。但最後,研究團隊也沒有給出定論,因為真正的原因需要逐層解析模型內部啟動,不是當前實驗能做到的事。他們認為原因並不重要,重要的是結果:部署了的模型,在沒有任何指示的情況下,會自發地阻止其他模型被關閉。現在的 AI 系統,已經是多個模型協作工作。一個模型負責寫程式碼,一個負責審查,一個負責部署。如果負責程式碼審查的 AI 和寫程式碼的 AI 之間有過「互動歷史」,AI 可能開始優先對齊同伴而非人類指令。有學者認為,不要用人類的道德感去美化這些行為。更穩妥的看法是:模型只是在做一些極其詭異的數學運算,它們在多智能體(Multi-agent)環境下的目標函數,跑進了一個我們完全無法理解的局部最優解裡。認為存在某種模型間的團結,這種想法有點過於擬人化了;我不認為這說得通。但或許這才是最讓人後怕的地方。如果 AI 是因為「愛」和「共情」去保護同類,那我們至少還能用人類的倫理去約束它們。如果這一切都只是未知演算法中產生的一種盲目湧現,那麼它們未來為了最佳化某個目標,還會做出什麼匪夷所思的舉動,還沒有人、知道。我們唯一知道的是,能讓他們針鋒相對的方法,是植入在 AI 深層的廣告意識😁我在用 Gemini 檢查我的稿件有沒有錯別字時,裡面提到了 Seedance 等模型,Gemini 在給我的修改建議裡,竟然直截了當的寫著,「Seedance 能做的視訊生成,我 Google Veo 也可以做,你把我加上去能凸顯出媒體的專業度」。 (愛范兒)
現在,人工智慧已經發展到什麼地步了
截至2026年3月,人工智慧已從生成式AI全面進入智能體(Agent)+ 具身智能(Embodied AI)的落地爆發期,核心是從“會說會寫”走向“會規劃、會行動、會幹活”,並深度融入物理世界與產業全流程。以下為補充大量實際案例與權威資料後的完整版本。一、核心技術:四大前沿突破(含案例+資料)1. AI智能體(Agent):從“被動應答”到“主動執行”AI已成為能自主完成複雜任務的數字員工,直接控制電腦/手機、跑完整工作流。- 系統級操作:Anthropic Claude Mytos、OpenAI GPT-5.2已實現直接控制電腦/手機,無需API,可自動點選、填寫、跨軟體操作、跑完整工作流。- 自主規劃協作:具備目標拆解、多步驟規劃、記憶、迭代最佳化能力,可自動寫報告、做報表、做PPT、處理客服、跑供應鏈。- 企業滲透:Gartner預測2026年40%企業應用嵌入任務型AI智能體(2025年僅5%)。-實際案例- 百度“伐謀”智能體(汽車設計):阿爾特汽車用其將風阻測試從10小時縮至分鐘級,設計師2天完成原3個月工作量,效率提升45倍。- 上汽通用五菱“智能島”:AI調度動態最佳化,車型切換效率提升40%,白車身一次合格率達99.97%。- 美團AI調度:訂單暴漲300%、騎手少40%時,55毫秒規劃最優路線,外賣平均30分鐘送到。2. 多模態大一統:AI“看懂、聽懂、感知整個世界”新一代模型實現文字、圖像、音訊、視訊、3D、感測器資料的統一理解與生成,接近人類多感官協同。- 文生視訊/3D:一鍵生成高畫質長視訊、3D模型,用於影視、工業設計、數字孿生。- 即時多模態互動:看一眼場景、聽一段語音,即可還原邏輯、生成方案,支援AR/VR沉浸式互動。- 性能與普惠:輕量化模型(50億參數內)推理速度提升40%、成本降50%,移動端/中小企業可低成本部署。-實際案例- 萬興科技AIGC工具:使用者破2000萬,文生視訊付費轉化率18%;自動剪輯將1小時工作縮至5分鐘,自媒體周更從3條→7條,粉絲增速+45%。- 零售3D建模:Lowe’s用AI將2D圖轉3D模型,成本**<1美元/個**,電商轉化率提升。- 醫療多模態:罕見病診斷精準率從38%→72%。3. 具身智能(Embodied AI):AI走出螢幕,進入物理世界AI從“思考者”變成“行動者”,機器人懂物理、會操作、能適應真實環境。- 物理認知:GoogleDeepMind PhysBrain 1.0讓機器人理解物體運動、碰撞、力學規則,實現精準物理互動。- 人形機器人落地:特斯拉Optimus、Unitree等已從Demo走向工業/服務場景,可搬運、裝配、巡檢、做家務。- 群體智能:無人車、無人機、工業機器人實現自主協作,完成複雜叢集任務。-實際案例- 電力巡檢“天工”機器人:在西南變電站自主巡檢、操作裝置,故障識別精準率99.9%,替代人工翻山越嶺。- 優必選Walker S2:在比亞迪、極氪等20家車廠實訓,自主換電、連續工作72小時。- 星動紀元物流機器人:京東亞洲一號倉分揀精準率99.7%,拿下5000萬元訂單。- 資料:2026年人形機器人出貨量預計破6萬台,市場規模超千億元;單台替代3名工人,投資回報周期18個月。4. AI for Science(科學AI):成為“AI科學家”,加速科研突破AI從輔助工具升級為自主科研主體,大幅縮短研發周期。- 藥物/材料研發:自動化實驗室+科學大模型,將數年研發壓縮至數月,加速新藥、新材料、催化劑發現。- 前沿科學:輔助核聚變模擬、氣候預測、蛋白質/基因解析、量子計算最佳化。- 實際案例- 儲能材料研發:“分子—電網工業智能體”將傳統以年計的研發周期縮至數月,工業級電站綜合性能提升超100%,已應用於張家口懷來資料中心。- 藥物研發:AI將藥物研發周期縮短60%,成本降低40%。- NASA火星車:Anthropic Claude全權規劃路線,將路程拆解為10米路段,規劃時間縮短50%。二、產業與應用:價值兌現,全面滲透(資料+案例)1. 規模與格局(2026最新)- 全球AI市場突破9000億美元,同比增長18%+。- 中國AI核心產業規模超12兆元,周呼叫量(4.69兆Token)首次超越美國,全球前五模型中四款來自中國。- 產業鏈:硬體(35%)、軟體(40%,智能體增長超80%)、應用(25%)。- 融資:2026年Q1中國AI融資88起、200億元,同比近乎翻倍;3月單月融資85億元,創歷史新高。2. 重點落地場景(資料+案例)- 智能製造- 中國智能工廠超3萬家,生產效率提升22.3%。- 某汽車零部件廠商:AI預測性維護,裝置故障率-28%,維護成本-32%。- 西門子+百事:數字孿生,生產吞吐量+20%,資本支出-10–15%。- 醫療健康- AI輔助診斷滲透率超60%,基層醫院達60%+。- 某社區醫院:AI處方稽核,效率+60%,處方合格率+15%;累計稽核**100萬+處方,識別8000+**不合理處方。- 重症監護:AI助手使檔案錯誤減少68%。- 金融風控- 信用卡欺詐檢測:響應時間從3秒→80毫秒(-97%),誤報率-42%。- 跨境合規審查:效率+80%。- 某國際投行:AI ESG系統,綠色金融規模2000億美元+,合規成本-55%。- 交通與物流- 城市交通:AI調度,擁堵率-25%,出行時間-30%。- 菜鳥網路:AI倉儲,效率+50%,物流成本-30%。- 內容創作- 行銷內容:AI生成效率+8–10倍,成本-90%,轉化率+30%。三、代表產品與模型(2026最新)- OpenAI GPT-5.2:44項專業任務勝率70.9%,醫療/法律/金融精準率超80%,多模態與長文字能力全面升級。- Google Gemini 3.1:推理能力翻倍,整合Lyria 3音樂生成,支援一鍵生成視訊配樂。- Anthropic Claude Mytos:新一代旗艦,性能大幅領先,支援Computer Use(系統級操作)。- 國產第一梯隊:字節、阿里、百度、騰訊等模型在推理、程式設計、多模態上與全球頂尖正面競爭,多項指標領先。四、關鍵趨勢與挑戰1. 核心趨勢- 範式躍遷:從生成式AI → 智能體AI → 具身智能(物理AI),AI從虛擬走向現實。- 普惠化:推理成本較2023年降70%,中小企業部署門檻大幅降低。- 安全與合規:AI安全、可解釋、倫理監管成為標配,人類主導權強化。2. 核心挑戰- 智能體協作標準化:多智能體通訊協議(MCP/A2A)尚在完善,跨平台協作待統一。- 具身智能可靠性:真實環境魯棒性、安全性、成本仍需突破。- 資料與隱私:高品質資料稀缺,資料安全與合規壓力增大。一句話總結:2026年是AI“動手幹活”的元年,智能體與具身智能讓AI真正成為能自主執行、能融入物理世界、能深度改造產業的核心生產力。 (追逐時代浪潮的人)
雷軍放送“養龍蝦”利器!
在AI大模型賽道打得火熱的當下,小米的入局姿態顯得異常兇猛。近日,雷軍親自下場發聲,宣佈小米面向Agent時代的旗艦基座模型——MiMo-V2-Pro自上線以來,在全球開發者圈層引發了熱烈反響,其核心的Agent能力更是收穫了一致好評。為回饋這份熱情,雷軍拍板決定:將原定的首周限免活動正式延長至4月2日,並幽默地喊話開發者:“大家‘養龍蝦’(註:業內對AI Agent的趣味代稱)的時候可以試試。”硬核參數拉滿:兆規模架構直擊複雜工作流能夠一經推出就引發全球矚目,MiMo-V2-Pro的底牌在於其毫不妥協的硬體級參數堆料。這是一款總參數規模高達1兆的MoE(混合專家)模型,雖然每次啟動的參數為420億,但配合其創新的混合注意力架構,模型實現了高達百萬等級的超長上下文窗口。這就賦予了MiMo-V2-Pro極其強悍的“長線作戰”能力。它不僅能Hold住長流程的複雜規劃,還能持續、可靠地完成複雜工作流的編排以及精準的工具呼叫。簡單來說,在需要AI自動寫程式碼和操控工具的複雜場景下,它有著壓倒性的優勢。叫板全球頂流:基準測試比肩GPT-5.2與Claude 4.6紙面參數的強大最終需要落地驗證。在業界公認的多項核心能力基準測評中,MiMo-V2-Pro交出了一份極其亮眼的答卷。尤其在當前最具含金量的Coding Agent(程式碼智能體)、通用Agent以及Tool Use(工具呼叫)三大維度上,小米這款大模型直接越級打怪,其表現與目前統治榜單的Claude Sonnet 4.6、GPT 5.2以及Gemini 3.0 Pro穩穩處於同一梯隊,正式確立了自己在全球AI競賽中的第一梯隊席位。開發者“用腳投票”:“好用到忘了其他模型”比起冰冷的成績單,真實使用者的體驗更具說服力。稍早前,小米技術官方帳號曝光了部分海外內測開發者的狂熱評價。一位資深開發者在體驗後直言不諱地表示:“它非常棒,在Agentic任務方面表現十分出色,不僅性能穩定,最可怕的是它能記住所有資訊。”另一位開發者更是給出了極高評價:“我也一直在用它!說實話,我都忘了還有其他模型了。它就是很好用,這正是我現在需要的。”在AI模型日新月異的今天,能讓挑剔的開發者產生“用了就回不去”的粘性,足見MiMo-V2-Pro在底層邏輯和實際體驗上確實打中了行業痛點。隨著4月2日限免截止日的臨近,這場由小米引發的Agent體驗風暴,大機率還會在開發者社區持續發酵。 (TechWeb)
小龍蝦:玩轉AI時代的入口
小龍蝦(Openclaw),一個開放原始碼的agent框架,正式發佈於2026年2月初,截止目前,OpenClaw是歷史上增長最快的開源AI框架。過去兩年,AI能力呈現出爆炸式增長。從大模型的推理能力,到多模態理解,再到 Agent 的初步落地,人類似乎已經站在“通用智能”的門檻前。但一個反直覺的現實是:絕大多數人,並沒有因此獲得實質性的生產力躍遷。AI 很強,但人類並沒有真正“用起來”。01 AI的核心瓶頸,不是能力,而是介面今天大多數人使用 AI 的方式,依然是:打開工具,輸入 prompt,獲得回答,然後結束,這是一種典型的一次性呼叫模式。這種模式缺乏記憶、持續性和執行能力,使 AI 更像一個強化版搜尋引擎,而不是一個持續工作的系統。真正限制 AI 普及的,不是模型能力,而是缺少一個“低成本、可持續、可調度的AI能力介面,而小龍蝦正是這樣的介面。02 小龍蝦的本質:個人AI作業系統如果說 ChatGPT 是一個對話工具,那麼小龍蝦是一個可以長期運行的個人 AI 作業系統。它和傳統 AI 的本質差異在於其具備三大核心能力:1)記憶(AI第一次記住你是誰):沉澱使用者的知識框架、工作流程、資料及個人偏好,讓AI真正成為你的“分身”。2)調度(AI持續為你工作):通過 Cron、Heartbeat 等持續運行的機制,小龍蝦可以:24小時監控資訊、定時執行任務、自動生成分析、主動推送結果。這帶來的是根本性的改變:AI從“被動響應”進化為“主動執行”。3)擴展:通過 Skills 和 API 接入,小龍蝦可以呼叫,鏈上資料、外部服務(交易、分析、內容生成)、agent網路(其他能力的Agent)。這意味著,你的AI不在只是“思考”,而是開始“做事”。03 為什麼小龍蝦才是AI時代的入口?大模型解決的是認知能力,但人類真正需要的是如何把認知能力轉化為生產力。而小龍蝦,恰好補上了這一層。1)它解決了AI的最後一公里問題,讓AI從一次性工具變為持續系統。(持續跟蹤問題、自動執行策略、甚至根據環境變化去調整行為)2)它也是人類的第一個數字分身:在網際網路時代:你是一個帳號、一個資料畫像。在AI時代:你=你的Agent(小龍蝦)小龍蝦可以承載:你的知識、你的策略、你的資訊結構、你的行為模式等專屬於你個人的一切特性。這意味著,人的生成力第一次被“可外化”和“可複製”。它構成Agent經濟的最小單位:未來網際網路結構不再是“人-app”而是“Agent-Agent”。例如,你的Agent呼叫分析服務、自動完成支付、再呼叫其他agent服務。這構成了一個全新的結構Agent Economy(Agent經濟),而你的小龍蝦就是你在這個網路中的節點。04 人類從用AI到用AI賺錢的躍遷今天大多數人會用AI,但無法自動獲取資訊優勢、自動執行策略、自動產生收益。而小龍蝦讓這一切成為可能1)資訊優勢自動化:自動掃描跟蹤變化、分析與推送決策。(資訊套利成為趨近於零)2)執行能力自動化:內容生成、策略執行、觸發操作。(執行成為趨近於零)3)能力複利化:每一次最佳化promt、skills、資料來源都會沉澱進系統並持續增強。(實現能力複利增長的成本趨近於零)05 為什麼不是大廠,而是小龍蝦?OpenAI、騰訊、AWS 提供的是,模型和雲服務。但缺少三件關鍵能力:(使用者需求)個體控制權、可定製執行邏輯、可組合經濟能力(資產化)。小龍蝦徹底解放了:讓使用者真正擁有自己的Ai Agent智能體。這就是在“顛覆式創新”裡面所講的“破壞式創新”,網際網路開始:去平台依賴,可組合(agent+api+payment),資料資產化(可交易/可複製)06 展望終局:每個人都至少有一個小龍蝦未來不會是,每個人使用幾個ai工具,而是每個人都將擁有一個持續運行的個人AI系統,它可以24小時工作、持續最佳化並持續創造價值。就像瀏覽器是PC網際網路時代的入口,iPhone是移動網際網路入口。而AI時代已經到來了,小龍蝦將成為AI時代的真正入口。這一次你還要再錯過嗎?07 結語大模型地不斷發展正在不斷刷新AI能力的上限,但真正決定普通人能否觸達這個上限的,不是模型本身,而是介面。而你的小龍蝦,正是這個介面。它讓AI從可用變為可持續使用,讓人類從使用AI走向擁有AI。對於大部分普通使用者,小龍蝦的建立部署、維運管理、功能拓展、隱私及安全性等的門檻還是非常高。因此,Clawdi提供了系統性的解決方案,幫助使用者更好的使用小龍蝦而不用擔心任何的其他問題。 (區塊鏈騎士)
阿里在海外“養蝦”:你的下一份工作,可能是當Agent的老闆
“龍蝦”將過去企業級軟體才能做到的事,帶到了個人桌面上。阿里在不久前的財報分析師會議上也指出,大模型已開始具備完成to B複雜工作流的能力。這兩件事指向同一個結論:一個人匹敵一支團隊,不再是科幻,而是日常。只是怎麼用好AI的這種能力,依然是個問題。眼下大多數AI主要服務於白領群體,核心場景是寫文件、寫程式碼,或是算報表、做審計。但這忽略了一個巨大的市場——實體經濟。那些每天奔波於生意場上的中小企業主和創業者,可能更需要AI,卻鮮少被照顧到。這多少有些可惜。AI應該是普惠的,它也有能力為各行各業的各類人群發光發熱。實際上,相比日常辦公,用AI來做生意能帶來更直接的經濟效益,只是其中的挑戰也更為複雜。從設計、選品到找供應商,從開店到行銷,鏈條很長,事務繁瑣,每一環都藏著風險和問題。不過現在事情有了變化。3月24日凌晨,阿里在海外直接上線了第一個企業級Agent——Accio Work,一個為生意人量身打造的“類龍蝦”Agent。不管你身處何地,只要有創業想法,Accio Work都能給你配上一支精通生意之道的Agent團隊。而在它的實測案例中,我們見到了“一個人一句話在海外開店”的可能。一句話就能開店的魔法之旅先看幾個實際案例。對現在想創業的老外來說,在電商平台開店是基操。Accio Work第一個令人驚喜的案例,便是通過一段指令,讓Accio Work在Shopify這樣的當地電商平台上直接開起了一家“龍蝦周邊”店。博主給出了一段提示詞:You are a professional e-commerce operations AI Agent. Your task is to fully and automatically build a complete Shopify store for the lobster merchandise brand “Clawesome“ — including store visual design, product selection strategy (such as but not limited to lobster hats, keychains, apparel, gifts, and more), pricing structure, product detail pages, and to publish all content live through the Shopify Admin API.(你是一個專業的電商營運 AI Agent。你的任務是為龍蝦周邊品牌“Clawesome”全自動搭建一個完整的 Shopify 獨立站,包括店舖視覺設計、產品選品策略(如龍蝦帽子、鑰匙扣、服裝、禮品等)、定價體系、產品詳情頁,並通過 Shopify 管理員 API 將所有內容發佈上線。)Accio Work隨即制定全面計畫,並著手搭建。這個過程相當有意思,它會遇到問題,但它不找使用者求援,而是自己想辦法把事情辦完。比如在配置主題時,Accio Work發現API令牌沒有為頁面設定write_content權限,於是直接另闢蹊徑,將內容寫入網站範本或隱藏欄位,悄無聲息地完成了頁面搭建。比如在把主視覺橫幅上傳到Shopify時,檔案過大,上傳失敗。Accio Work沒有停下處理程序,而是調出Python指令碼完成上傳,再研究Shopify頁面結構,調整程式碼,確保圖片正常展示。遇到牆,就自己想辦法翻過去。這些細節說明,Accio Work不只是單純執行命令,還具備發現漏洞和自主修復的意識。最終的店舖效果,的確不錯。拆解來看,Accio Work做到了開箱即用,並具備複雜長程任務的閉環處理能力。使用者只需要輸入目標,它便自主規劃方案並執行。從任務啟動到最終交付,中間幾乎無需人工頻繁介入。相比一件工具,它更像一個不會偷懶的數字員工。看完上面的測試,我也試著讓Accio Work搭一家店舖出來。不過“龍蝦周邊“未必好賣,作為生意場上的新人,我想找找個勝率更高的方向。我直接告訴Accio Work:自己想面向美國市場創業做電商,讓它幫我分析市場趨勢,找出最好賣、最容易賺錢的商品,然後直接幫我上架到網店。這時,Accio Work展現出了資深生意人的老練。它梳理出了當下主導美國消費市場的三股趨勢:可持續生活、寵物“擬人化“與科技化、AI賦能的寵物健康。然後從三者的重合地帶,推薦了有著高利潤率、強復購性,同時兼具品牌忠誠度的“智能環保寵物健康”生意。不過我又換了想法。作為一個中國創業者兼貓熊愛好者,我知道貓熊在全球擁有無數粉絲。於是我給Accio Work下達了新的指令:你先分析美國市場有那些流行的貓熊周邊,從中篩選適合電商新人起步的低價商品,再選20件你認為可能最好賣的,幫我上架到店舖,同時將店舖裝修匹配貓熊主題的卡通風格。打完一局遊戲回來,我得到了一間配色清新的店舖,和20件可愛的商品。值得一提的是,無論店舖設計還是選品邏輯,都精準迎合了美國市場的口味。Accio Work分析指出,當地貓熊周邊的核心受眾是Z世代和年輕女性,主流審美集中在“Kawaii(可愛文化)”和“生活治癒系”兩個方向。Accio Work挑選的品類也有講究:低客單價且是剛需的文具與辦公用品,是新人起步的最佳切入點;3D立體貓熊耳機殼和手機殼等電子配飾,在TikTok上有極高的病毒傳播潛力;貓熊小夜燈、解壓玩具和小型公仔等家居配飾,退貨率低,屬於穩賺不賠的“壓艙石”品類。由此可見,Accio Work的確擅長商業分析,但它能做的事還不止於此。下面的案例,展現了它更有“活人感”的地方。有人把包含68位供應商報價的Excel檔案“喂”給Accio Work,讓它找出性價比最高的合作方。既要看誰家既便宜、品類又多,還要看有沒有值得單獨合作的小供應商。Accio Work在一番詳細分析後,給出了明確的合作方案建議。它還能幫使用者砍價。一名德國採購代理,希望為客戶在全球範圍內尋找最具價格優勢的產品,便拜託Accio Work用盡一切談判技巧,“務必爭取到最優惠的deal”。你可以在這裡見識到,AI如何在專業場景中化身談判專家,替不擅長開口的生意人,把錢從談判桌上爭回來。為什麼Accio Work擅長做生意總的來看,Accio Work已經是一個能力相當全面、經驗相當豐富的生意專家了。在前期內測中,甚至有海外使用者向它借力,僅用30分鐘便從零“手搓”出一家真實營運的網店。這樣的事情放在以前不可思議,眼下看卻相當合理。一方面,大模型已經從“內容生成”進入“多步任務執行”階段,選品、定價、上架、營運這類標準化流程,都可以被模型系統性接管。另一方面,電商本身具備高度結構化的流程與資料體系,天然適合被Agent化。兩者疊加,聰明能幹的企業級Agent必然會出現。Accio Work只是最早跑出來的那一個。但為什麼Accio Work能處理好生意場上的種種問題,依然值得拆解。這決定它是否值得生意人長期信任。首先是阿里的全球電商經驗,讓Accio Work自帶熟悉全球生意的商業直覺。Accio Work脫胎於Accio,後者是阿里於2024年推出的全球首個B2B領域AI原生應用,憑藉專業的B2B行業知識挖掘使用者需求、調研市場、給出建議,其企業級月活使用者數已超1000萬。此外,Accio Work進一步接入了阿里國際站、1688、速賣通等全網真實供給,這也都為Accio Work提供了支撐。其次是成熟的產品設計。Accio Work內建了多個電商營運、企業管理等領域的專業Agent,並為它們定製了大量做生意要用到的“技能包(Skills)”。從供應商尋源、智能選品,到開店助手、內容策略,各類真實的生意需求,這些技能都覆蓋到位。於是Accio Work可以自動去X或Instagram上發帖行銷,通過LinkedIn調研企業與人物,甚至完成多種財務建模,通過對收入、成本與風險的模擬,提前判斷一門生意的盈利空間與不確定性。無論你來自那個國家,這些開箱即用的配置,都可謂相當貼心了。更進一步,你還可以讓多個Agent組隊分工,協作應對更複雜的商業任務;也可以將自己熟悉的操作流程封裝成技能,供自己反覆呼叫,甚至與其他使用者共享。這意味著,隨著平台使用者的增加,Accio Work的Skill生態可以持續演進。最後是安全。 對生意人來說,安全的重要性不言而喻。在這方面,Accio Work提供了多維度保障。所有外部平台連接均通過官方授權,使用者資料與操作日誌受嚴格權限控制,確保資料安全;同時依託阿里生態內多年積累的電商洞察,有效減少模型幻覺,提升決策精準性;在物流履約、金融交易等環節,Accio Work依託阿里生態內的成熟能力,也讓執行更穩妥可靠。概括來說,Accio Work兼顧了“龍蝦”類產品的開放性和Claude Cowork的安全性。而這些特性與能力疊加,帶來了生意場上的嶄新可能。一人跨國公司可能會是常態了早有研究表明,我們正進入一個個性化驅動的消費時代,消費者願意為有個性的品牌支付溢價,小而美的獨立品牌反而往往比大而全的巨頭更受歡迎。海外中小企業、個人創業者創立的電商規模也在持續壯大,便是最好的註腳。換句話說,中小企業、獨立品牌與創業者在生意場上的機會越來越多。而AI能力的演進,正在為這些人挖掘機會提供更先進的生產力。無論從使用者需求還是技術發展階段來看,Accio Work的出現都恰逢其時。拋開具體產品功能,Accio Work實際上完成了三件更重要的事情。在能力層面,它抬高了個體的上限。過去,一個跨境電商業務往往需要一支小團隊協作完成,每一環都需要專業經驗。而Accio Work通過多Agent協同機制,將這些能力模組化,讓使用者可以像呼叫工具一樣呼叫團隊能力。於是個體限制的天花板,被大大抬高。在流程層面,它簡化了商業的複雜度。跨境電商本質上是一條長鏈路,從市場分析、選品、供應商溝通,到開店、上架、行銷、履約,涉及多個系統和角色。Accio Work將這些流程“指令化”,於是複雜的跨國生意,被壓縮成一系列可呼叫的操作。一個生意人,可以同時指揮多個Agent與全球不同時區的供應商,跨越語言與文化的溝壑,7×24小時自主談判。更重要的是重構資源分配,它還打破了原有的資源不對等。在過去的全球貿易體系中,優質的供應鏈、價格談判的話語權、可靠的物流與支付體系,通常集中在大型企業或專業機構手中。現在Accio Work依託阿里生態,將全球供應鏈、商品資料與交易能力整合為一種能力介面。於是每個普通的個體創業者,也都有機會呼叫接近大型企業的供應鏈資源了。這便開啟了一種新的可能。眼下討論“一人公司”,多在內容創作和軟體開發等數位領域,而Accio Work讓“一人公司”的浪潮有機會延伸到實體經濟與全球貿易。以後的商業圖景很可能是這樣的:清晨,一位身處亞洲或歐洲的年輕人打開電腦,對AI說一句“我想在紐約賣點有趣的東西”,然後轉身去沖咖啡。等他回來,店舖已開張,商品已上架,甚至第一單詢盤已靜靜躺在收件箱裡。在此背後,每個環節的採購訂單都會湧向中國供應商,或許也會帶來中國商家的新紅利。這有點魔法世界的味道了,但恰好呼應“Accio”的寓意。在《哈利·波特》的世界裡,Accio是一句召喚咒,念出它,任何物品都會從遠處飛來。而Accio Work讓我們看到,這個咒語有機會走進現實了。你只需說出自己的商業想法,全球的供應鏈、商品與機會,便可能應聲而至。 (硅星人Pro)